【期末总复习】机器学习(公式推导与代码实现)鲁伟 | 您所在的位置:网站首页 › 球体体积公式的推导 积分 › 【期末总复习】机器学习(公式推导与代码实现)鲁伟 |
【第一章】机器学习预备知识
1、了解机器学习的发展简史
训练集(Training set) 作用是用来拟合模型,通过设置分类器的参数,训练分类模型。后续结合验证集作用时,会选出同一参数的不同取值,拟合出多个分类器。 验证集(Cross Validation set) 作用是当通过训练集训练出多个模型后,为了能找出效果最佳的模型,使用各个模型对验证集数据进行预测,并记录模型准确率。选出效果最佳的模型所对应的参数,即用来调整模型参数。如svm中的参数c和核函数等。 测试集(Test set) 通过训练集和验证集得出最优模型后,使用测试集进行模型预测。用来衡量该最优模型的性能和分类能力。即可以把测试集当做从来不存在的数据集,当已经确定模型参数后,使用测试集进行模型性能评价。 3、阐述清楚回归任务和分类任务的差别回归任务,是对连续值进行预测(比如多少); 分类任务,是对离散值进行预测(比如是不是,属不属于,或者属于哪一类)。 4、熟练的阐述监督学习、非监督学习、半监督学习以及强化学习的相关概念监督学习(supervised learning) 是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。 无监督学习 (unsupervised learning) 是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。 半监督学习其不需要额外的“专家知识”,没有额外信息,仅利用未标记样本来提高泛化性能。 强化学习C reinforcement learning) 是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程(Markov decision process) ,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。 5、知道弱监督学习的三种类型,及每种类型的大致的标签质量弱监督通常分为三种类型:不完全监督、不确切监督、不准确监督 不完全监督,指的是训练数据只有部分是带有标签的,同时大量数据是没有被标注过的。这是最常见的由于标注成本过高而导致无法获得完全的强监督信号的情况。 不确切监督,即训练样本只有粗粒度的标签。例如,针对一幅图片,只拥有对整张图片的类别标注,而对于图片中的各个实体(instance)则没有标注的监督信息。 不准确监督,即给定的标签并不总是真值。出现这种情况的原因有很多,例如:标注人员自身水平有限、标注过程粗心、标注难度较大。 6、复述出损失函数的定义以及意义,以及常见的损失函数:0/1 损失、平方损失函数、对数损失函数和绝对损失函数的表达式损失函数的作用:衡量模型模型预测的好坏。即用来表现预测与实际数据的差距程度。 损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。 机器学习中可能的函数构成的空间称为“假设空间”。 模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(hypothesis space)。假设空间的确定意味着学习的范围的确定。 8、能够对过拟合、欠拟合现象进行分析并阐述其对应的解决方案过拟合(overfitting):模型把训练集学得“太好”的时候,即把一些训练样本的自身特点当做了普遍特征;学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了。 欠拟合(underfitting):模型学习能力不足,即训练集的基本特征都没有学习出来。学习能太差,训练样本的一般性质尚未学好。 ![]() 学习率太小的话,梯度下降过程会很缓慢。 学习率太大的话,梯度下降步子太大,可能永远无法到达最低点,无法收敛甚至偏离收敛。 12、能够根据具体的 Y_Pred 和 Y_true 绘制出混淆矩阵,列出TP、TN、FN,FP 的英文全称,并对以上概念进行解释说明TP:True Positive。判定为真的(positive),且判定对了(true) TN:True Negative。判定为假的(negative),且判定对了 FP:False Positive。判定为真的(positive),但判定错了 FN:False Negative。判定为假的(negative),且判定错了 13、根据混淆矩阵计算 Accuracy、Precision、Recall 以及 F1 ![]() ![]() ![]() 最小二乘法,也叫做最小平方法(LEAST SQUARE METHOD),它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最小二乘法来表达。 ![]() ![]() 算法模型为了更好的拟合样本集,使其模型的拟合能力超过远远超过了问题复杂度,也就是学习模型过于复杂。 多项式系数越高,模型越复杂是因为多项式次数的增加会使得函数的拟合能力增强。随着多项式次数的增加,模型将能够更准确地拟合数据,但同时也会带来更高的过拟合风险。 7、了解正则化系数对于模型表现能力的影响,能够熟练的表达其在训练集合测试集相应指标的变化趋势矩阵的1-范数可定义为矩阵中所有元素的绝对值之和,而矩阵的L2范数是指矩阵中各元素的平方和再开均方根的结果。 L1:在优化过程中,正则化项的存在能够使那些不重要的特征系数逐渐为零,从而保留关键特征,使得模型简化。 L2:最小化参数矩阵的每个元素,使其无限接近0但又不像L1那样等于0,也能降:低模型的复杂度。 8、了解多元线性回归的基本概念用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。 当数据集D中的样本Xi由多个属性进行描述,此时称为“多元线性回归”。 9、能够推导出多元线性回归的正规方程当 XT X 为正定矩阵时求解 W* (此处是将权重 w 和偏置 b 组合成为 W)的过程及最后结果复述分类任务的具体输出是根据输入的文本,判断文本属于哪个类别,并输出该类别的标签。通常会使用机器学习算法对已有的数据进行训练,然后对新的文本进行分类。输出结果可以是文本所属的类别,也可以是每个类别对应的概率。 2、能够列出对数几率回归 Logistic regression 的基本公式,并解 释每一部分的含义得到的连续的输出映射到[0,1]变为概率值 核心:想办法让观察样本出现的概率最大 7、能够推导出交叉熵损失的具体表达式并阐述交叉熵损失函数的具体涵义y是真实的标签值(正类值为1,负类值为0),y`是预测的概率值(y·∈(0,1)).它表征真实样本标签和预测概率之间的差值 8、能够解释为什么对数几率回归不能使用均方误差作为损失函数其中||w||1即为矩阵的1-范数,入为1-范数项的系数。 2、能够从正规方程角度和正则化角度解释 LASSO 回归的作用正则化角度: LASSO回归是在线性回归的损失函数后面加一个L1正则化项。 L1:距阵中所用元素的绝对值之和。使那些不重要的特征系数逐渐为0,从而保留关键特征,使模型简化。 正规方程角度: LASSO回归的不同之处在于它使用L1正则化项对参数进行约束。通过修改线性回归模型的优化函数,LASSO回归可以在高维数据集中更好地处理特征选择问题。 3、了解矩阵范数的基本概念,知道常用的 1 范数和 2 范数的计算方法LASSO 回归不能使用梯度下降法进行优化的原因是 L1 正则化项不是可微的,它是由绝对值函数构成的,这使得通过梯度下降法进行优化变得困难。相反,LASSO 回归通常使用坐标下降或者最小角回归等算法进行优化。 5、结合图 4-2 阐述坐标下降法的基本过程![]() ![]() ![]() 正规方程角度: 岭回归是对线性回归模型的正规方程进行修改,目的是使模型在解决过度拟合问题时更加稳定。与标准线性回归模型不同的是,岭回归在解决矩阵无法求逆的情况下,并通过添加一个偏置项使模型更具可解释性,有效地解决了多重共线性问题。 正则化角度: Ridge回归是使用L2作为惩罚项改造线性回归损失函数模型。 L2:距阵中所用元素的平方和再求均方根。最小化参数矩阵的每个元素,使其无限接近于0但又不像L1那样等于0 10、结合图 4-4 阐述 Ridge 求解参数的过程,以及是怎样使得参数尽可能接近于 0 的k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。 k近邻法的输入为实例的特征向量对应于特征空间的点;输出为实例的类别,可以取多类。 k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。 2、能详细的复述 KNN 算法的过程:12345对未知类别属性的数据集中的每个点依次执行以下操作: ①计算已知类别数据集中的点与当前点之间的距离; ②按照距离递增次序排序; ③选取与当前点距离最小的k个点; ④确定前k个点所在类别的出现频率; ⑤返回前k个点出现频率最高的类别作为当前点的预测分类 3、熟练记忆 KNN 算法的三要素及其具体涵义三要素:距离度量方式、k值选择、分类决策规则 即:距离待预测点的邻居的个数K;样本点之间距离的计算方式;决策函数的选择 【计算】4、列出闵式距离的公式,并阐述曼哈顿距离、欧式距离和切比雪夫距离公式中对应 P 的取值如果选择较小的K值: “学习”的近似误差会减小,但“学习”的估计误差会增大,噪声敏感 K值的减小就意味着整体模型变得复杂,容易发生过拟合. 如果选择较大的K值: 减少学习的估计误差,但缺点是学习的近似误差会增大. K值的增大就意味着整体的模型变得简单. 7、熟练阐述如何根据交叉验证筛选出合适的 k 值在交叉验证中,我们将数据集分为 k 个部分,每次取其中一个部分作为验证集,其余部分作为训练集。对于每个 k 值,重复上述流程并计算模型的平均误差。选择误差最小的 k 值作为模型参数。因此,可以根据最小错误来筛选出合适的 k 值。 8、了解分类决策规则k 近邻法中的分类决策规则往往是多数表决,即由待分类样本的 k 个邻近分类样本中的多数类决定它的类。 决策树(Decision Tree)是一种用来分类和回归的无参监督学习方法。其目的是创建一种模型从数据特征中学习简单的决策规则来预测一个目标变量的值。顾名思义,决策树是基于树结构进行决策的。决策过程中提出的每个判定问题都是对某个属性的“测试”。 2、主要解决什么问题(分类 / 回归问题)![]() ID3算法 ID3决策树算法[Quinlan,1986]是以信息增益为准则来选择划分属性。 C4.5算法 C4.5决策树算法[Quinlan,1993]不直接使用信息增益,而是使用“增益率”来选择最优划分属性。 CART算法 CART决策树使用“基尼指数”(Gini index)来选择划分属性。 http://t.csdn.cn/HGKu3 ![]() ![]() ![]() 对于线性不可分的情况,在感知机的基础上一般有两个处理方向,其中一个就是神经网络模型。这里的神经网络模型也称多层感知机(muti-layer perception,MLP),它与单层感知机在结构上的区别主要在于MLP多了若干隐藏层,这使得神经网络能够处理非线性问题。一个两层网络(多层感知机)。 7、依据神经网络的结构图,讲解神经网络的结构隐藏层数量指的是神经网络中隐藏层的数量,即在输入层和输出层之间的中间层的数量。隐藏层大小则是指每个隐藏层中神经元的数量。在神经网络中,较多的隐藏层数量和更大的隐藏层大小通常可以增强网络的表达能力,提高其学习和预测的准确率。但是,过多的隐藏层或者过大的隐藏层大小可能会导致网络过度拟合和过度复杂化,而影响其泛化能力和性能表现。 9、了解神经网络中的三大概念三大概念:反向传播、梯度下降、损失函数 神经网络训练的最基本的思想就是:先“猜”一个结果,称为预测结果 y_hat,看看这个预测结果和事先标记好的训练集中的真实结果 y_true 之间的差距,然后调整策略,再试一次,这一次就不是“猜”了,而是有依据地向正确的方向靠近。如此反复多次,一直到预测结果和真实结果之间相差无几,亦即 |y_hat-y_true|→0,就结束训练。 在神经网络训练中,我们把“猜”叫做初始化,可以随机,也可以根据以前的经验给定初始值。即使是“猜”,也是有技术含量的。 10、并述神经网络的训练思想神经网络的训练思想是通过反向传播算法来调整神经元之间的连接权重,使得神经网络能够拟合出数据的模式和规律。具体来说,神经网络会根据输入数据以及其对应的标签,计算出每个神经元的输出值,然后根据损失函数来评估网络的预测结果和真实结果的差距,最后利用反向传播算法来更新权重以降低损失函数值,进而优化整个神经网络模型。 11、能够画出常见激活函数的图像如阶跃函数、Sigmoid 函数、Yanh 函数、ReLu 函数 计算机视觉处理的三大任务:分割、定位、检测 早期神经网络,经典分类网络,ImageNet与经典分类网络,后ImageNet时代经典网络 【监督学习集成模型】 1、bagging和boosting的区别2、adaboost、XGboost、梯度提升算法的区别 【第十八章】主成分分析 1、算法的用处(降维),与lasso、回归算法的区别是什么 【计算】2、协方差如何计算,特征值是谁,用什么降维 http://t.csdn.cn/VRhNI 例1
例2 3、PCA算法流程
【第十九章】奇异值分解 1、奇异值分解(矩阵分解)、与特征值的区别 【第二十一章】贝叶斯概率模型 【计算 / 综合】1、给一个数据集,计算似然函数、先验概率、全概率、后验概率
http://t.csdn.cn/csUUD 【第二十二章】EM算法 【综合】1、极大似然法例子,分布参数,求解思路(固定变量,求xx)http://t.csdn.cn/i3ATE
【第二十三章】隐马尔可夫模型 1、定义与概念:状态序列、观测序列、状态图、三个参数 2、状态转移矩阵 【计算】3、标注模型的符号的意思,写矩阵,根据什么确认(下雨天概率) 隐马尔可夫模型例子 ![]()
4、三个假设、观测假设 【第二十四章】条件随机场
【第二十五章】马尔可夫链蒙特卡洛算法 MCMC(一)蒙特卡罗方法 - 刘建平Pinard - 博客园 (cnblogs.com) 1、名词解释马尔科夫链(Markov chain):假设某一时刻状态转移的概率只依赖于它的前一个状态。举个形象的比喻,假如每天的天气是一个状态的话,那个今天是不是晴天只依赖于昨天的天气,而和前天的天气没有任何关系。当然这么说可能有些武断,但是这样做可以大大简化模型的复杂度,因此马尔科夫链在很多时间序列模型中得到广泛的应用,比如循环神经网络RNN,隐式马尔科夫模型HMM等,当然MCMC也需要它。 2、特征函数
3、集成学习算法的区别 集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个学习器都是同质的"弱学习器"。 |
CopyRight 2018-2019 实验室设备网 版权所有 |